Knowledge graph reasoning (KGR), aiming to deduce new facts from existing facts based on mined logic rules underlying knowledge graphs (KGs), has become a fast-growing research direction. It has been proven to significantly benefit the usage of KGs in many AI applications, such as question answering and recommendation systems, etc. According to the graph types, the existing KGR models can be roughly divided into three categories, \textit{i.e.,} static models, temporal models, and multi-modal models. The early works in this domain mainly focus on static KGR and tend to directly apply general knowledge graph embedding models to the reasoning task. However, these models are not suitable for more complex but practical tasks, such as inductive static KGR, temporal KGR, and multi-modal KGR. To this end, multiple works have been developed recently, but no survey papers and open-source repositories comprehensively summarize and discuss models in this important direction. To fill the gap, we conduct a survey for knowledge graph reasoning tracing from static to temporal and then to multi-modal KGs. Concretely, the preliminaries, summaries of KGR models, and typical datasets are introduced and discussed consequently. Moreover, we discuss the challenges and potential opportunities. The corresponding open-source repository is shared on GitHub: https://github.com/LIANGKE23/Awesome-Knowledge-Graph-Reasoning.
translated by 谷歌翻译
We present a simple yet effective end-to-end Video-language Pre-training (VidLP) framework, Masked Contrastive Video-language Pretraining (MAC), for video-text retrieval tasks. Our MAC aims to reduce video representation's spatial and temporal redundancy in the VidLP model by a mask sampling mechanism to improve pre-training efficiency. Comparing conventional temporal sparse sampling, we propose to randomly mask a high ratio of spatial regions and only feed visible regions into the encoder as sparse spatial sampling. Similarly, we adopt the mask sampling technique for text inputs for consistency. Instead of blindly applying the mask-then-prediction paradigm from MAE, we propose a masked-then-alignment paradigm for efficient video-text alignment. The motivation is that video-text retrieval tasks rely on high-level alignment rather than low-level reconstruction, and multimodal alignment with masked modeling encourages the model to learn a robust and general multimodal representation from incomplete and unstable inputs. Coupling these designs enables efficient end-to-end pre-training: reduce FLOPs (60% off), accelerate pre-training (by 3x), and improve performance. Our MAC achieves state-of-the-art results on various video-text retrieval datasets, including MSR-VTT, DiDeMo, and ActivityNet. Our approach is omnivorous to input modalities. With minimal modifications, we achieve competitive results on image-text retrieval tasks.
translated by 谷歌翻译
我们考虑从分布强化学习中学习一组概率分布的问题(RL),该学位与仅在经典RL中的期望相比,学习了整个返回分布。尽管它成功地获得了卓越的性能,但我们仍然对分布RL中的价值分布的工作方式有糟糕的了解。在这项研究中,我们通过在神经拟合z-材料〜(Neural FZI)框架中的其他价值分布信息的杠杆作用来分析分布RL的优化益处。首先,我们证明了分布RL的分布损失具有理想的平滑性特征,因此具有稳定的梯度,这与促进优化稳定性的趋势一致。此外,分布RL的加速效应是通过分解返回分布来揭示的。事实证明,如果合适的值分布近似值,则分布RL可以表现出色,该分布由每个特定分布RL算法中每个环境中梯度估计的方差衡量。严格的实验验证了分布RL的稳定优化行为,与经典RL相比,其加速效应有助于其加速作用。我们研究的发现阐明了分布RL算法中的价值分布如何有助于优化。
translated by 谷歌翻译
尽管自我监督的学习使我们能够通过利用未标记的数据来引导培训,但自然图像的通用自我监督方法不能充分纳入上下文。对于医学图像,理想的方法应足够敏感,以检测与每个解剖区域的正常表现组织的偏差。在这里,解剖结构是背景。我们介绍了一种新的方法,具有两个级别的自我监督的表示目标:一个在区域解剖学层面上,另一种是在患者级别上。我们使用图形神经网络来结合不同解剖区域之间的关系。图的结构由每个患者与解剖图谱之间的解剖对应关系告知。此外,图表具有完整分辨率的任何任意大小的图像的优点。大规模计算机断层扫描(CT)肺图像数据集的实验表明,我们的方法与不考虑上下文的​​基线方法相比有利。我们使用学习的嵌入来分期与COVID-19有关的肺组织异常。
translated by 谷歌翻译
关于图像协调的最新作品将问题作为像素图像翻译任务通过大型自动编码器解决。在处理高分辨率图像时,它们的性能不令人满意和缓慢的推理速度。在这项工作中,我们观察到调整基本图像过滤器的输入参数,例如亮度和对比度,足以使人类从复合材料的图像中产生逼真的图像。因此,我们将图像协调作为图像级回归问题,以了解人类用于任务的过滤器的参数。我们提出了一个用于图像协调的谐波框架。与基于黑框自动编码器的先前方法不同,Harmonizer包含用于过滤器参数预测的神经网络,以及用于图像协调的几个白色框过滤器(基于预测参数)。我们还引入了级联回归器和一个动态损失策略,以使和声使更稳定地学习过滤器论点。由于我们的网络仅输出图像级参数和我们使用的过滤器是有效的,因此谐波比现有方法更轻,更快。全面的实验表明,谐波可以超过现有方法,尤其是在高分辨率输入的情况下。最后,我们将谐波应用于视频和谐,以1080p分辨率在框架和56 fps上实现一致的结果。代码和型号可在以下网址提供:https://github.com/zhkkke/harmonizer。
translated by 谷歌翻译
视觉变压器(VIT)正在改变对象检测方法的景观。 VIT的自然使用方法是用基于变压器的骨干替换基于CNN的骨干,该主链很简单有效,其价格为推理带来了可观的计算负担。更微妙的用法是DEDR家族,它消除了对物体检测中许多手工设计的组件的需求,但引入了一个解码器,要求超长时间进行融合。结果,基于变压器的对象检测不能在大规模应用中占上风。为了克服这些问题,我们提出了一种新型的无解码器基于完全变压器(DFFT)对象检测器,这是第一次在训练和推理阶段达到高效率。我们通过居中两个切入点来简化反对检测到仅编码单级锚点的密集预测问题:1)消除训练感知的解码器,并利用两个强的编码器来保留单层特征映射预测的准确性; 2)探索具有有限的计算资源的检测任务的低级语义特征。特别是,我们设计了一种新型的轻巧的面向检测的变压器主链,该主链有效地捕获了基于良好的消融研究的丰富语义的低级特征。 MS Coco基准测试的广泛实验表明,DFFT_SMALL的表现优于2.5%AP,计算成本降低28%,$ 10 \ $ 10 \乘以$ 10 \乘以$较少的培训时期。与尖端的基于锚的探测器视网膜相比,DFFT_SMALL获得了超过5.5%的AP增益,同时降低了70%的计算成本。
translated by 谷歌翻译
分布强化学习〜(RL)是一类最先进的算法,可估计总回报的整个分布,而不仅仅是其期望。分布RL的经验成功取决于回报分布的表示和分布差异的选择。在本文中,我们提出了一类新类\ textit {sindhorn Distributional rl〜(sindhorndrl)}算法,该算法学习了一组有限的统计数据,即确定性样本,从每个返回分布中,然后使用sinkhorn迭代来评估sindhorn迭代之间的距离当前和目标铃铛分布。 sindhorn的差异特征是瓦斯汀距离与最大平均差异〜(MMD)之间的插值。 Sindhorndrl通过利用基于最佳传输距离的几何形状和MMD的无偏梯度估计特性,从而找到了一个甜蜜点。最后,与最先进的算法相比,Sinkhorndrl的竞争性能在55场Atari游戏中得到了证明。
translated by 谷歌翻译
可重新配置的智能表面(RIS)是未来无线通信系统的新兴技术。在这项工作中,我们考虑由RIS启用的下行链路空间多路复用,以获得加权和速率(WSR)最大化。在文献中,大多数解决方案使用交替的基于梯度的优化,具有中等性能,高复杂性和有限的可扩展性。我们建议应用完全卷积的网络(FCN)来解决这个问题,最初是为图像的语义分割而设计的。 RIS的矩形形状和具有相邻RIS天线的通道的空间相关性由于它们之间的短距离而鼓励我们将其应用于RIS配置。我们设计一组通道功能,包括通过RIS和Direct通道的级联通道。在基站(BS)中,可分离的最小均方平方误差(MMSE)预编码器用于预测,然后应用加权最小均方误差(WMMSE)预编码器以进行微调,这是不增强的,更复杂的,但实现更好的表现。评价结果表明,该解决方案具有更高的性能,允许比基线更快的评估。因此,它可以更好地缩放到大量的天线,推进RIS更接近实际部署的步骤。
translated by 谷歌翻译
通过各种面部操作技术产生,由于安全问题,面部伪造检测引起了不断的关注。以前的作品总是根据交叉熵损失将面部伪造检测作为分类问题,这强调了类别级别差异,而不是真实和假面之间的基本差异,限制了看不见的域中的模型概括。为了解决这个问题,我们提出了一种新颖的面部伪造检测框架,名为双重对比学习(DCL),其特殊地构建了正负配对数据,并在不同粒度下进行了设计的对比学习,以学习广义特征表示。具体地,结合硬样品选择策略,首先提出通过特别构造实例对来促进与之相关的鉴别特征学习的任务相关的对比学习策略。此外,为了进一步探索基本的差异,引入内部内部对比学习(INL-ICL),以通过构建内部实例构建局部区域对来关注伪造的面中普遍存在的局部内容不一致。在若干数据集上的广泛实验和可视化证明了我们对最先进的竞争对手的方法的概括。
translated by 谷歌翻译
批量归一化(BN)广泛用于现代神经网络,已被证明代表与域相关知识,因此对于跨域任务(如无监督域适应(UDA))无效。现有的BN变体方法在归一化模块中相同信道中的源和目标域知识。然而,跨域跨域的相应通道的特征之间的错位通常导致子最佳的可转换性。在本文中,我们利用跨域关系并提出了一种新颖的归一化方法,互惠归一化(RN)。具体地,RN首先呈现互易补偿(RC)模块,用于基于跨域频道明智的相关性在两个域中获取每个信道的补偿。然后,RN开发互易聚合(RA)模块,以便以其跨域补偿组件自适应地聚合特征。作为BN的替代方案,RN更适合于UDA问题并且可以容易地集成到流行的域适应方法中。实验表明,所提出的RN优于现有的正常化对应物,通过大幅度,并有助于最先进的适应方法实现更好的结果。源代码可在https://github.com/openning07/reciprocal-normalization-for-da上找到。
translated by 谷歌翻译